数据挖掘方法有哪些
数据挖掘方法如下:
神经网络方法:神经网络非常适合解决数据挖掘的问题,是由于其具有良好的健壮性、自组织自适应性、并行处理、分布存储和高度容错等特性,因此近年来越来越受到人们的关注。
遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法应用于数据挖掘是因为其具有的隐含并行性、易于和其他模型结合等特性。
决策树方法:决策树是一种常用于预测模型的算法,它通过对大量数据进行有目的的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单、分类速度快,因此特别适合大规模的数据处理应用。
粗集方法:粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法具有不需要给出额外信息、简化输入信息的表达空间、算法简单和易于操作的优点。粗集处理的对象是类似二维关系表的信息表。
覆盖正例排斥反例方法:覆盖正例排斥反例方法利用覆盖所有正例、排斥所有反例的逻辑来寻找潜在规则。
统计分析方法:统计分析方法是指对数据库字段进行函数关系或相关关系的分析,即利用统计学原理对数据库中的信息进行分析。常用统计分析方法包括回归分析、相关分析、差异分析等。
模糊集方法:模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高、模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。
回归分析:回归分析分为线性回归、多元回归和非线性同归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多项式项形成非线性同门模型。
差别分析:差别分析的目的是试图发现数据中的异常情况,如噪音数据,欺诈数据等异常数据,从而获得有用信息。
概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别,生成一个类的特征性描述只涉及该类对象中所有对象的共性。
聚集检测:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。相异度是根据描述对象的属眭值来计算的,距离是经常采用的度量方式。
连接分析:连接分析,Link analysis,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式;同时将产生的概念应用于更广的用户群体中。
关联规则:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之I司存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。